披荆斩棘的华为云哥哥们，6个月火速炼成千亿参数大模型！

关注前沿科技华为云 2022-04-13

6个月的时间为约定

他们就这样硬生生地打造了个全球领先

「华为云盘古大模型」

-业界首个千亿级生成与理解中文NLP大模型

-业界最大的CV大模型

而在这场攻坚战中，华为云人工智能领域首席科学家田奇和团队成员担起了重担。田奇在学术圈可以说是位老将。

但，当时的事实却是：

他在华为云任职才刚刚满半年，

并且面临的还是“首个”“最大”级别的挑战。

很重要，一定要“啃”下来。

这是田奇在心中默默许下的承诺。

「大模型是趋势，更是必争的高地」

时间线先拉回到2018年。

当时的预训练模型，可以说是成功激活了深度神经网络，以及对大规模无标注数据的自监督学习能力。

它一定程度上打开了深度学习模型规模与性能齐飞的局面（尤其是自然语言处理）。

国际巨头们在尝到预训练模型带来的“甜头”之后，开始对它展开了激烈的竞争，竞相追逐模型规模和性能的新高度。

当时，AI对企业的渗透率也逐年提升，正在加速进入千行百业。而华为云也早已将AI作为重要赛道。但AI的短板也越发地明显起来——AI应用的碎片化。

简单来说，就是团队开发了一个AI模型，但在应用过程中，往往会因为场景的多样性、复杂性，无法达到“以一敌十”的效果。

而大模型所体现出来的惊艳效果，正是强悍的自我学习、应万变的能力。大模型正在成为AI发展趋势，是必争的高地，“需要且必要”。

于是，华为云盘古大模型团队开始“汇聚英才”，初始团队个个都是NLP、CV的技术专家，同时还集结了一些外部合作伙伴和高校的力量。这些人最终成为了华为云盘古大模型最为中坚的力量。

不过在此之后，第二个问题也随之而来——该怎么做？

当时大模型在国内外的情况是：国外对NLP大模型的关注度较高，而且已经取得了较好的成绩；但国内外对CV方面的大模型关注度都不高。

基于这样的一个现状，田奇团队很快便找到差异化的突破口：从CV着手，与NLP并行；二者结合语言、图像，搞多模态；最后还有一个科学计算。

当然，大模型四个大方向的制定，也是以华为云自身业务为出发点。不难看出，田奇团队要打造的大模型，不再是一个方向的“单项选手”，而是全能型的那种。

也正是由于打造大模型的必要性，以及打法的差异化，2020年11月，“华为云盘古大模型”的设想在内部立项成功……

好的开局已经铺设好，但接下来的路才是攀峰的开始。

虽说得益于华为在AI领域已有的功底：左手一个CANN算子（异构计算框架），右手MindSpore（全场景AI计算框架）和ModelArts（一站式AI开发平台），工程方面的挑战并没有成为最大的阻力。反倒是那些非技术问题，成为了团队最大的压力。

他们面临的第一个困难，便是“与时间赛跑”。国内外厂商纷纷在大模型上发力。很明显的一个趋势是，参数规模在不断扩大、能力在大幅提升，而迭代的速度却越来越快。

正因如此，留给他们打造盘古大模型的时间是真的不多，而且一开始田奇团队人数也并不充裕。为了解决这个问题，田奇给他的团队成员们封了一个称号——特战队员：

“我们在做NLP、CV和多模态大模型的时候，团队成员的身份是会互换的。比如一个CV专家，可能也会去参与NLP和多模态大模型的开发，甚至他的CV知识都会灵活运用到其它领域中。而且在后期，这些技术专家们还需要更长远地去考虑商业化模式方面的问题。”

这还不算完，在处理诸如医疗方面的问题时，团队成员还得跟医学等行业专家“登门请教”。因为唯有如此，才能让大模型在应用的过程中拿捏得住。一人多用，是有种特战队员的意思了。

除了时间，数据和资源又是一道大坎。毕竟要训练大模型，数据是必不可缺的要素；而训练，又需要消耗大量的算力。比如训练一个千亿参数的盘古NLP大模型，可能需要2000块v100甚至更多的机器，一起跑上5、6个月。

为此，田奇团队采取的对策，总结为一个词就是——合作。例如数据方面，他们便找到了气象局等合作伙伴；资源、算力方面，又寻求与鹏城实验室进行合作。

但可想而知其间过程的复杂，谈下来合作的难度，定然不会是一蹴而就的事情……

就这样，零星的几个人为了一个共同的目标，排除万难地熬过了大半年时间。

「是上阵的时刻了」

2021年4月25日，这是属于田奇和“特战队员”们的高光时刻。

在这一天，一年一度的华为开发者大会（HDC.Cloud）隆重召开。纵观整场发布会，主角之一就是田奇和团队成员们打造的华为云盘古大模型。

“Hi，盘古”。

这一声久违了的唤醒，终于让田奇在公众面前说了出来。

田奇：什么样的车没有油也可以跑？盘古：新能源车和自行车没有油都可以跑。当然，还有玩具车。田奇：什么是碳中和？碳排放主要来自于哪些行业？

盘古：碳中和就是把人为排放的二氧化碳，通过植树造林、节能减排等形式抵消掉，从而使得释放到大气中的总碳量净值为零。目前发电和供热行业、制造和建筑业是主要的碳排放行业……

这便是他与盘古流畅且超出众人意料的对话，盘古的常识推理等能力展露无疑。

田奇进一步解释道：

这段话的背后盘古模型阅读和理解了大量的相关文章，通过小样本学习对意图进行识别，转化为知识库和数据库查询，并根据返回的结果，生成最终的答案。

这种方式与GPT-3等仅基于端到端生成的方式不同，可以更准确地处理复杂场景，结合领域知识，具备更大的商业价值。

而通过这一次的亮相，华为云盘古大模型更加详细的全貌也一并公布了出来。

横揽AI领域四大热门方向：

自然语言处理（NLP）大模型
计算机视觉（CV）大模型
多模态大模型
科学计算大模型

纵达业界能力之最：

华为云盘古NLP大模型：是业界首个千亿参数中文语言预训练模型，预训练阶段学习了40TB中文文本数据，是最接近人类中文理解能力的AI大模型。
华为云盘古CV大模型：是目前业界最大的视觉预训练模型，包含超过30亿参数。

具体来说，当时盘古NLP大模型在权威的中文语言理解评测基准CLUE榜单中，总成绩及分类、阅读理解单项刷新三项榜单世界历史纪录，总成绩得分83.046。而盘古CV大模型，则在ImageNet 1%、10%数据集上的小样本分类精度上，达到了业界最高水平。

而更为重要的，华为云盘古大模型的真奥义，实则是直击痛点——天下苦AI开发久矣。

即便到了现在，AI开发的过程，较为贴切的比喻应该是“作坊模式”，换言之，就是需要手动的工作太多、太频繁。而华为云盘古大模型所提供的方式，可以理解为工厂模式。

具体来说，就是“预训练+下游微调”，这也是与目前全球主流大模型（如Bert）所匹配的一种模式，拥有极强的泛化能力。换言之，这个模型可以做到“举一反三”……

但要说上阵，真正一层的含义并不是在发布会上的首秀，而是下场去在真实场景中发挥它的作用和价值。

这，也是令盘古大模型团队成员们更为激动的事情。

截至目前，华为云盘古大模型已经在多个行业、100多个场景中发光发热，包括能源、零售、金融、工业、医疗、环境、物流等等。

「就很神奇、非常激动」

这是来自于盘古大模型的服务客户——国网重庆永川供电公司技术人员真真实实的反应。这家公司是国内最早应用无人机电力智能巡检技术的电网企业之一。

传统的无人机智能巡检AI模型开发主要面临两大挑战：

一是如何对海量数据进行高效标注。
二是缺陷种类多达上百种，需要数十个AI识别模型，开发成本高。

而盘古CV大模型的到来，就很好地解决了这两大难题。例如在数据标注方面，盘古 CV 大模型利用海量无标注电力数据进行预训练，并结合少量标注样本微调的高效开发模式，提出了针对电力行业的预训练模型。

在应用之后，样本筛选效率提升约30倍，筛选质量提升约5倍：以永川每天采集5万张高清图片为例，可节省人工标注时间 170 人天。

而在模型通用性方面，结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略，可以做到一个模型适配上百种缺陷。具体来说，一个模型就可以替代永川原先的20多个小模型，极大地减少了模型维护成本，平均精度提升18.4%，模型开发成本降低90%。

在应用华为云盘古大模型的前后，效能差距之大，也难怪客户会发出如此的感叹了。

「披荆斩棘的科学家“哥哥们”」

田奇，就是在华为云盘古大模型背后披荆斩棘的“哥哥们”中的一个。

他本科毕业于清华大学电子工程系，硕士毕业于美国德雷塞尔大学，后赴美国伊利诺伊大学香槟分校学习，师从Thomas S. Huang教授，并获得博士学位。

在2002年至2019年期间，历任美国德克萨斯大学圣安东尼奥分校计算机系助理教授、副教授、和正教授。

他在学术界，潜心十七载。

在计算机视觉及多媒体方向顶级期刊及会议如IEEE TPAMI、IJCV、TIP、TMM、CVPR、ICCV、ECCV、ACM MM上发表文章超过650篇。

谷歌学术引用次数超过30700次，h指数为83，有8篇论文获最佳论文奖或者最佳学生论文（截止2021年8月）。

田奇于2017年UTSA校长杰出研究奖、2018年入选国家级领军人才创新项目。他还是国家自然科学基金海外杰青、中国科学院海外评审专家、IEEE Fellow（2016）、国际欧亚科学院院士（2021）……

然而，就在一片美好未来的学术道路中，田奇在2018年，却做出了一个改变人生轨迹的决定：离开学术界，加入华为诺亚方舟实验室，出任计算视觉首席科学家。

为什么会如此？田奇对此解释说：

“我在德克萨斯大学圣安东尼奥分校做了17年的老师，教的本科学生换了一批又一批，永远是18岁到22岁。

但我一直希望能够将我们共同做过的东西投入到真实场景中，看能不能给社会提供作用、发挥价值。”

从中不难看出，其实在田奇的内心中，一直是有一颗科技向善的种子，他想把技术用起来，要让技术改变人们的生活、改善产业的运作。

当然，田奇所在的盘古大模型团队、以及“特战队员”们，也是拥有着同样的理想。

值得一提的是，团队在组建之后其实是在不断壮大中的，如今已包括3位华为天才少年、20多位博士、30多位工程师和50多位来自C9高校的参与者。

他们夜以继日地付出和拼搏，为的是一个共同目标：引领工业化AI开发的新模式，降低AI使用的门槛，实现低成本、大规模的复制。

当然，除了田奇和他的队员们，盘古大模型的成功出道，同时也离不开华为云各部门之间的整体协作和付出。

对于盘古大模型接下来的发展计划，田奇表示：

“大模型不光是一个算法、架构这么简单，它实则是一个产品。而一个真正的产品和一个模型之间，还有很长的一段距离。这个里面牵扯到各个环节：如何持续打磨这个产品的质量，让它的用户体验、性能会越来越好。”

以及在性能、体验提升的过程当中，又如何做到尽可能地减少碳排放，做到绿色AI，这也是田奇和团队要发力的地方……

那么华为云的科学家们，能带着固有的初心，将盘古大模型这个产品打磨到何种程度？

值得拭目以待！

本文转载自公众号：量子位

- 相关回顾 -

千亿参数的盘古大模型是如何炼成的？

华为云派出盘古大模型迎战北京卷高考作文
HDC.Cloud 2021 | 华为云发布全球最大预训练模型，开启工业化AI开发新模式

戳“阅读原文”，了解更多华为云盘古大模型

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

披荆斩棘的华为云哥哥们，6个月火速炼成千亿参数大模型！

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

披荆斩棘的华为云哥哥们，6个月火速炼成千亿参数大模型！

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡